从基础能力到应用，大模型实测结果揭晓

IDC中国 IDC咨询

2024-09-16

北京，2024年6月11日

OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 GPT-4 及其 API；在中国市场，模型的通用性和泛化能力吸引了各大厂商布局，市场上的大模型/生成式AI产品纷至沓来。2024年5月，全球代表性AI技术供应商如OpenAI发布了更新的大模型GPT-4o，在文本、图像、音频和视频等多模态融合尝试方面展现出强大的能力，能够以这三者的任意组合进行输入和输出，Google也发布了大模型Gemini的最新功能、文生图模型Imagen3、对标Sora的文生视频模型Veo等。IDC观察到，在中国市场，从2024年第二季度开始，越来越多的AI技术供应商开始更新升级基础大模型及相关产品，新一轮的“百模大战”一触即发。

实测方法

本次实测面向市场上主流的大模型技术供应商，产品必须是已经开放使用，并按照国家互联网信息办公室要求已经完成备案。测试的媒介主要是基于基础大模型的网页版的产品，IDC对参与厂商的产品表现分别进行测评。基础能力问题涉及问答理解类、推理类、创作表达类、数学类、代码类等；应用问题主要包含toC通用场景类和toB特定行业类，每一类单独计分。

基础大模型产品实测结果评述

为对比国内外大模型的产品差异以及推动大模型/生成式AI相关产品的发展和应用，IDC成立产品测试团队，通过多个维度（如生成质量、使用与性能、安全与合规等）对基础大模型及相关产品进行评测，并邀请外部专家团队深入分析各个产品答案准确性、合理性等，并在审核委员会的监督下，最终得出各厂商的评估结果，供用户选型参考。

综合最终的得分情况，基础大模型产品能力处于第一梯队的有（梯队产品表现在同一均线，以下按照技术供应商首字母顺序排列）：阿里通义千问/通义万相等通义系列生成式AI产品、百度文心一言/文心一格、科大讯飞讯飞星火 3.5 Max、OpenAI GPT4、商汤日日新SenseNova 5.0。

在所有的题目类型中，目前如问答理解、toC通用场景类得分率较高，数学类、推理类、代码类问题、行业应用类的准确率较低，需进一步优化。详细的测评结果展示如下：

IDC中国大模型产品测试团队表示，2024年产业界更加关注大模型和生成式AI的落地，生成式AI的进一步发展需要多种模态的大模型作为引擎。更为接近人类的思维方式，是未来大语言模型竞争的关键，技术供应商还需持续优化大模型在数学、推理、代码等问题以及在行业应用中的生成质量，提高生成的速度并降低大模型使用的成本，加快大模型技术的应用与普及。

如需进一步了解与此研究相关的信息或关注其他相关项目研究，请与IDC中国研究总监卢言霞（邮箱：ylu@idc.com）或者IDC中国研究经理程荫（邮箱：acheng@idc.com）联系。

免责声明

本文中的内容和数据均来源于IDC所发布的报告，所有内容及数据均为我公司所有。未经IDC书面许可，任何机构和个人不得以任何形式翻版、复制、刊登、发表或引用。

全文完

↓ 相关推荐

谷歌与OpenAI 竞相升级的背后——生成式AI市场机会引发关注

大模型推理算力建设，您准备好了吗？

联系我们

扫描左侧二维码

与我们保持沟通

相关咨询，请联系：

王勇，IDC中国副总裁

电话：(+86-10) 5603 4087

电邮：fwang@idc.com

刘晓婷，IDC中国客户支持代表

电话：(+86-10) 5082 5797

电邮：yvliu@idc.com

谢静，IDC中国市场部

邮箱：mxie@idc.com

继续滑动看下一个

IDC咨询

向上滑动看下一个

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

从基础能力到应用，大模型实测结果揭晓

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

生成图片，分享到微信朋友圈

从基础能力到应用，大模型实测结果揭晓

您可能也对以下帖子感兴趣